Import Library Penting

Sejumlah library penting yang digunakan dalam project kali ini diantaranya adalah:

Load dataset

Dalam hal ini, dataset yang digunakan berformat Excel. Dataset berformat Excel tersebut nantinya diubah dalam bentuk pandas dataframe. Kemudian, cek masing-masing kolom apakah ada baris yang bernilai null atau tidak. Deskripsi statistik dari dataset mencakup count, mean, standar deviasi (std), 3std, dll. Deskripsi statistik dataset bertujuan untuk mengetahui gambaran statistik dari dataset termasuk melihat adanya potensi outlier dari dataset.

Membuat Deskripsi Statistik Dataset

Deskripsi statistik dari dataset mencakup count, mean, standar deviasi (std), 3std, dll. Deskripsi statistik dataset bertujuan untuk mengetahui gambaran statistik dari dataset termasuk melihat adanya potensi outlier dari dataset dengan menggunakan perbandingan nilai max min terhadap nilai +-3 x STD metric, apakah di luar jangkauan +-3 x STD metric atau tidak.

Dari deskripsi statistik tersebut, secara umum dataset tidak memiliki potensi outlier.

Visualisasi Dataset Awal dan Standarisasi Skala Dataset

Visualisasi Dataset Awal

Dilakukan visualisasi dataset untuk melihat gambaran secara kualitatif dataset tersebut. Apakah ada korelasi antar variabel/fitur? Apakah korelasinya positif atau negatif? Apakah trend-nya linier atau non-linier?

Dari grafik 2D, Sumbu X menunjukkan X1, sumbu Y menunjukkan X2, skala warna menunjukkan X3, dan ukuran point menunjukkan X4. Kita bisa melihat adanya korelasi positif non-linier antara X1 dan X2. Nilai X1 dan X2 yang semakin besar juga berbanding lurus dengan nilai X3 yang ditunjukkan dengan warna yang bergradasi dari biru tua menjadi kuning dan nilai X4 yang ditunjukkan dengan ukuran point yang relatif semakin besar.

Standarisasi/Normalisasi Dataset

Tahap selanjutnya yakni melakukan normalisasi pada dataset. Masing-masing variabel/fitur tentunya memiliki unit satuan yang berbeda sehingga perlu dilakukan standarisasi/normalisasi. Untuk melakukan normalisasi, ada 3 opsi yang dapat dilakukan:

Untuk mengetahui lebih lanjut tentang proses standarisasi menggunakan 3 opsi tersebut, dapat menelusuri link berikut: link. Karena dataset tidak memiliki potensi outlier (berdasarkan deskripsi statistik dataset), maka digunakan metode Min Max Scaler.

Principal Component Analysis (PCA)

Secara sederhana, Analisis Komponen Utama (Principal Component Analysis) adalah analisis untuk mereduksi sejumlah variabel yang banyak dari suatu dataset sehingga mempunyai dimensi yang lebih kecil namun dapat menerangkan sebagian besar keragaman variabel aslinya. Dengan melakukan PCA, maka pemrosesan model lebih cepat tanpa mengurangi keragaman variabel aslinya. Untuk informasi lebih lanjut tentang PCA, dapat mengunjungi link berikut: link

Dari grafik tersebut, dapat dilihat bahwa 100% variance dapat dijelaskan hanya dengan 3 komponen. Maka, untuk tahap k-means clustering, 3 komponen tersebut sebagai input.

K-Means Cluster

Elbow Plot

Elbow plot memudahkan kita untuk mengetahui jumlah k yang optimal berdasarkan jumlah fitur yang dipertimbangkan dalam kluster. Ibarat lengan yang sedang ditekuk, k yang optimal terletak diantara 2 trend garis (sebagai penghubung antara 2 trend yang berbeda). Untuk studi kasus ini, penentuan k optimal berdasarkan fitur dari 3 principal component yang telah dianalisis sebelumnya (PC1, PC2, PC3) dan fitur dari dataset asli (x1, x2, x3, x4).

Dari 2 elbow plot tersebut, dapat terlihat bahwa K-optimal = 2. Namun, untuk studi kasus ini, digunakan K = 3 dan K = 4 sebagai bahan perbandingan.